\section{Определение дифференцирования. Единственность.}
  Начиная с этого места, евклидову норму будем обозначать не как \(\norm{x}\), а
  как \(\abs{x}\).

  Снова потребуем, чтобы на \(\realnum^n\) была определена евклидова норма.

  Рассмотрим отображение \(f : \realnum^n \to \realnum^p\). Пусть \(a \in
  \realnum^n \) -- внутренняя точка \(\defset_f\). Тогда \(f\) определена в
  некоторой окрестности точки \(a\): существует \(f(a)\) и \(f(a + h)\), если
  \(h\) достаточно мало. Это позволяет нам ввести следующее
  \definition[дифференцируемое отображение]{
    Отображение \(f\) называется \defined{дифференцируемым} в точке \(a\),
    если существует такой линейный оператор \(A : \realnum^n \to \realnum^p\),
    что \[
      \lim_{h \to 0} \frac{\abs{f(a + h) - f(a) - Ah}}{\abs{h}} = 0
    \], или, что то же самое, \[
      f(a + h) - f(a) = Ah + o(\abs{h})
    \].

    При этом матрица оператора \(A\) в стандартном базисе называется
    \defined[производная]{производной} от \(f\) в точке \(a\), и обозначается
    \(f'(a)\), а сам оператор \(A\) -- \defined[дифференциал]{дифференциалом}
    \(f\) в точке \(a\), и обозначается \(\diff f(a)\).
  }
  \note{В отличие от дифференциала, производная зависит от выбора базиса.}

  \begin{theorem}
    Если \(f\) дифференцируема в точке \(a\), то она в ней непрерывна.
  \end{theorem}
  \begin{proof}
    Требуется доказать, что для любой последовательности \(\{x_m\}\),
    сходящейся к \(a\), верно \(f(x_n) \to f(a)\). Для этого обозначим \[
      h_n = x_n - a
    \]. Тогда \[
      \abs{f(x_n) - f(a)} = \abs{f(a + h_n) - f(a)} = \abs{Ah_n +
      o(\abs{h_n})} \le \abs{Ah_n} + \abs{o(\abs{h_n})} \le
      \abs{A}\abs{h_n} + \abs{o(\abs{h_n})} \to 0
    \].
  \end{proof}

  \begin{theorem}[теорема единственности дифференциала]
    Если отображение дифференцируемо в точке \(a\), то у него один
    дифференциал.
  \end{theorem}
  \begin{proof}
    Докажем от противного: пусть в точке \(a\) у отображения \(f\) есть два
    дифференциала: \(A_1\) и \(A_2\), причём \(A_1 \neq A_2\). Тогда \[
      f(a + h) - f(a) = A_1h + o(\abs{h}) = A_2h + o(\abs{h})
    \]. Это равносильно \[
      (A_1 - A_2)h = o(\abs{h})
    \]. Обозначим \(A_1 - A_2\) за \(B\). Если он не тождественно нулевой, то
    найдётся какой-нибудь базисный вектор \(e_1\), который этим оператором не
    обнуляется.

    Возьмём некоторый скаляр \(\lambda \in \realnum\). В качестве \(h\)
    выберем \(\lambda e_1\), и устремим \(\lambda\) к нулю сверху. Тогда \[
      B(\lambda e_1) = o(\abs{\lambda e_1}) = o(\abs{\lambda}\abs{e_1}) =
      o(\lambda)
    \]. С другой стороны, \(B(\lambda e_1) = \lambda B(e_1)\). Разделим
    предыдущее равенство на \(\lambda\): \[
      B(e_1) = \frac{o(\lambda)}{\lambda} \to 0
    \]. Так как \(B(e_1)\) не зависит от \(\lambda\), такое возможно только
    при \(B(e_1) = 0\). Но мы предположили, что \(B(e_1) \neq 0\) --
    противоречие. Значит, оператор \(B\) тождественно нулевой, то есть, \(A_1
    = A_2\).
  \end{proof}
  \begin{consequences}
    \item Если отображение \(f\) -- линейный оператор, то
    \(f(a + h) - f(a) = f(h) + 0\). \(f(h)\) подходит в качестве \(Ah\), а
    ноль -- в качестве \(o(\abs{h})\). По теореме единственности,
    получается, что \(f\) -- и есть дифференциал \(\diff f\), причём в любой
    точке.
  \end{consequences}
\section{Теорема о композиции}
  \begin{theorem}[теорема о композиции]
    Пусть отображение \(f : \realnum^n \to \realnum^p\) дифференцируемо в
    точке \(a\), причём \(f(a) = b\); а отображение \(g : \realnum^p \to
    \realnum^u\) дифференцируемо в точке \(b\). Тогда отображение \(g \circ
    f : \realnum^n \to \realnum^p\) дифференцируемо в \(a\), и \[
      \diff(g \circ f)(a) = \diff g(b) \circ \diff f(a)
    \].
  \end{theorem}
  \begin{proof}
    Пусть
    \{
      \[
        f(a + h) - f(a) = A_1h + \lambda_1(h)
      \], \[
        g(b + h) - g(b) = A_2h + \lambda_2(h)
      \].
    \}
    Здесь \(\lambda_1(h)\) и \(\lambda_2(h)\) -- это \(o(\abs{h})\).

    Введём оценку: \[
      g(f(a + h)) - g(f(a)) = g(f(a) + A_1h + \lambda_1(h)) - g(f(a)) = 
      g(b + [A_1h + \lambda_1(h)]) - g(b) = A_2\left( A_1h + \lambda_1(h)
      \right) + \lambda_2\left( A_1h + \lambda_1(h) \right) = A_2A_1h +
      A_2(\lambda_1(h)) + \lambda_2(A_1h + \lambda_1(h))
    \]. Докажем, что \(A_2(\lambda_1(h)) = o(\abs{h})\): \[
      \abs{A_2(\lambda_1(h))} \le \underbrace{\abs{A_2}}_{= \const}
      \underbrace{\abs{\lambda_1(h)}}_{= o(\abs{h})}
    \]. Докажем, что \(\lambda_2(A_1h + \lambda_1(h)) = o(\abs{h})\): \[
      \frac{\abs{\lambda_2(A_1h + \lambda_1(h))}}{\abs{h}} =
      \abs{\frac{\lambda_2(A_1h + \lambda_1(h))}{A_1h + \lambda_1(h)}}
      \abs{\frac{A_1h + \lambda_1(h)}{h}}
    \]. Первый множитель является \(o(\abs{A_1h + \lambda_1(h)})\). При этом
    \(A_1h + \lambda_1(h)\) стремится к нулю при \(h \to 0\), так как \(A_1\)
    -- линейный оператор, а значит, непрерывен, а \(\lambda_1(h)\) -- это и
    так \(o(\abs{h})\). Значит, первый множитель -- это \(o(\abs{h})\).

    Оценим второй множитель: \[
      \abs{\frac{A_1h + \lambda_1(h)}{h}} \le \frac{\abs{A_1h}}{\abs{h}} +
      \abs{\frac{\lambda_1(h)}{h}} = \abs{A_1} + o(\abs{h})
    \]. Он не стремится к нулю, но нам достаточно того, что он ограничен, так
    как первый множитель -- \(o(\abs{h})\).
  \end{proof}
  \definition[координатное отображение]{
    Пусть задано отображение \(f : \realnum^n \to \realnum^p\). Семейство
    отображений \(f_k : \realnum^n \to \realnum\) называется
    \defined{координатными отображениями}, если \[
      f \equiv (f_1, f_2, \cdots, f_p)
    \].
  }
  \begin{consequences}
    \item Дифференцируемость всех координатных отображений необходима и
    достаточна для дифференцируемости исходного отображения.
      \begin{proof}
        \begin{rightproof}[\(f\) дифференцируемо]
          Введём семейство линейных операторов, называемых
          \defined[координатные проекторы]{координатными проекторами}: \(P_k :
          \realnum^n \to \realnum\), \(P_k(x) \equiv x_k\). Из линейности
          следует дифференцируемость; причём \(\diff P_k = P_k\).

          Заметим, что \(f_k = P_k \circ f\). Тогда, по теореме о композиции,
          \[
            \diff f_k = \diff P_k \circ \diff f = P_k \circ \diff f
          \]. \(\diff f\) существует, значит, существует и \(\diff f_k\).
        \end{rightproof}
        \note{
          При этом на языке производных это будет выглядеть следующим
          образом: \[
            f'_k(a) = P_k f'(a)
          \]. Так как \(P_k\) -- матрица, состоящая из нулей, за исключением
          одного элемента, \(f'_k(a)\) -- это \(k\)-тая строка матрицы
          \(f'(a)\).
        }
        \begin{leftproof}[координатные отображения дифференцируемы]
          \[
            f(a + h) - f(a) = \left( f_k(a + h) - f(a) \right)_{k = 1}^p 
            = h\left(\diff f_k(a)\right)_{k = 1}^p + o(h)
          \].
        \end{leftproof}
      \end{proof}
    \item Если \(f, g : \realnum^n \to \realnum^p\) дифференцируемы в точке
    \(a\), то \(\diff(f + g)(a) = \diff f(a) + \diff g(a)\).
      \begin{proof}
        Рассмотрим отображение \(S : \realnum^2 \to \realnum\), такое, что
        \(S(x_1, x_2) \equiv x_1 + x_2\). Легко убедиться в том, что оно
        линейно по обеим переменным, а значит, \(\diff S(x_1, x_2) = S\).

        Разложим \(f\) и \(g\) на координатные отображения -- в силу предыдущего
        следствия, достаточно доказать равенство для них. Заметим, что \(f_k +
        g_k = S(f_k, g_k)\). \[
          \diff (f_k + g_k) = \diff S(f_k, g_k) = \diff (S \circ (f_k, g_k)) =
          \diff S \circ \diff (f_k, g_k) = S (\diff f_k, \diff g_k) = \diff
          f_k + \diff g_k
        \].
      \end{proof}
    \item
      Рассмотрим отображение \[
        p(x, y) = \langle x, y \rangle
      \]. Под \(\langle x, y \rangle\) подразумевается скалярное произведение.
      Заметим, что \(p : \realnum^{2k} \to \realnum\). Такое отображение линейно,
      как отображение по каждой своей компоненте, но не линейно как отображение
      \(\realnum^{2k} \to \realnum\), т.\,к. вот такое равенство неверно: \[
        p(x_1 + x_2, y_1 + y_2) \neq p(x_1, y_2) + p(x_2, y_2)
      \].

      Мы интересуемся вопросом, не верна ли случайно такая формула: \[
        \diff\langle f, g\rangle = \langle \diff f, g\rangle + \langle f, \diff
        g\rangle
      \]? Заметим, что \(f, g : \realnum^n \to \realnum^k\) и \(\langle f,
      g\rangle : \realnum^n \to \realnum\).

      Воспользуемся теоремой о композиции: \[
        \diff(p \circ (f, g)) = \diff p \circ (\diff f, \diff g)
      \]. Нас интересует, что из себя представляет \(\diff p\), так как мы не
      знаем, что же оно из себя представляет. Давайте напишем его явно: \[
        p(x_1, x_2, \cdots, x_k, y_1, y_2, \cdots, y_k) = \sum_{i = 1}^k x_iy_i
      \]. Не будем забывать о том, что \(\diff p : \realnum^{2k}  \to \realnum\).

      Давайте рассмотрим отображение \[
        \tilde{p}(a, b) \equiv ab \pred \realnum^2 \to \realnum
      \]. Найдём его дифференциал: \[ 
        (a + h_1)(b + h_2) - ab = ah_2 + bh_1 + h_1h_2
      \]. \(h_1h_2 = o(\abs{h})\):\[
        \abs{h_1h_2} \le \frac{1}{2}\left( h_1^2 + h_2^2 \right) =
        \frac{\abs{h}^2}{2}
      \], и отсюда \[
        0 \le \frac{\abs{h_1h_2}}{\abs{h}} \le \frac{\abs{h}}{2} \to 0
      \].

      Таким образом, \[
        \diff \tilde{p}(a, b) = (b, a)
      \]. Обозначим его за \(\alpha\).

      Далее воспользуемся таким очевидным фактом: \[
        p(x_1, x_2, \cdots, x_k, y_1, y_2, \cdots, y_k) = \sum_{i = 1}^k x_iy_i =
        \sum_{i = 1}^k p_i(x_1, x_2, \cdots, x_k, y_1, y_2, \cdots, y_n)
      \]. Поэтому \[
        \diff p = \sum_{i = 1}^k \diff p_i
      \]. При этом дифференциал \(\diff p_i\) задаётся такой матрицей: \[
        \diff p_i = \Big(\underbrace{0, \cdots, 0, y_i, 0, \cdots, 0}_{k\text{ штук}},
          \underbrace{0, \cdots, 0, x_i, 0, \cdots, 0}_{k\text{ штук}}\Big)
      \]. Матрица суммы таких операторов выглядит следующим образом: \[
        \diff p = \Big(y_1, y_2, \cdots, y_k, x_1, x_2, \cdots, x_k\Big)
      \]. Таким образом, \[
        \diff p(x, y)(a, b) = \langle y, a \rangle + \langle x, b \rangle
      \].

      Теперь мы готовы к тому, чтобы продолжить преобразование: \[
        \diff(p \circ (f, g))(a, b) = \diff p(f, g)(\diff f(a), \diff
        g(b)) =  \langle \diff f(a), g(b) \rangle + \langle f(a), \diff
        g(b)\rangle
      \].
  \end{consequences}

\section{Частные производные и их связь с дифференцируемостью}
  Рассмотрим функцию \(f : \realnum^n \to \realnum\).
  \definition[частная производная]{
    Предел \[
      \lim_{h \to 0} \frac{f(x_1, x_2, \cdots, x_{i-1}, x_i + h, x_{i + 1},
      \cdots, x_n) - f(x_1, \cdots, x_n)}{h}
    \] будем называть \defined{частной производной} \(f\) по переменной \(x_i\)
    в точке \(x = (x_1, \cdots, x_n)\).
  }
  \note{
    Знак нормы при \(h\) не нужен, так как всё происходит на одной
    координате.
  }

  \note{
    Следует иметь в виду, что в некоторый момент произошла подмена понятий:
    \(\realnum^n\) как декартово произведение \(n\) множеств \(\realnum\), и
    \(\realnum^n\), как банахова пространства размерности \(n\) над множеством
    скаляров \(\realnum\).

    Различие состоит в том, что в первом из них не предполагается никакого
    базиса. Для некоторых понятий он и не нужен: например, отображение задаётся,
    грубо говоря, приписыванием каждой точке \(\realnum\times\realnum\times\cdots\)
    некоторого значения, и базис для него не нужен. Дифференциал -- это линейный
    оператор, и он тоже существует вне зависимости от базиса.

    Но вот о производной -- матрице линейного оператора в некотором базисе, --
    без этого самого базиса говорить нельзя. Точно так же нельзя говорить, не
    задав базиса, и о частных производных: о них имеет смысл говорить, только
    выделив предварительно какие-то направления, по которым они будут
    вычисляться.

    Более того, если обычная и частная производная исследуются вместе, то они
    должны исследоваться \emph{в одном и том же базисе}, иначе они просто не
    могут быть как-либо друг с другом связаны. На это нужно обращать внимание в
    следующих теоремах.
  }

  Докажем такое утверждение.
  \begin{theorem}
    Пусть имеется \(f : \realnum^n \to \realnum\). Рассмотрим точку \(a \in
    \realnum^n\), такую, что \(f\) дифференцируема в \(a\).

    Верно, что матрица дифференциала \(\diff f\) выглядит так: \[
      \diff f = \Big(\diff f_1, \diff f_2, \cdots, \diff f_n\Big)
    \].
  \end{theorem}
  \begin{proof}
    В произвольной точке \(a\) построим семейство отображений \[
      s_i(h) \equiv (a_1, a_2, \cdots, a_{i - 1}, a_i + h, a_{i + 1}, \cdots, a_n)
    \]. Составим композицию: \[
      \diff_i f(a) = \diff(f(a) \circ s) = \diff f(a) \circ \diff s =
      \Big(\diff f_1, \diff f_2, \cdots, \diff f_n\Big)
        \Big(0, 0, \cdots, 1_i, 0, \cdots, 0\Big) = \diff f_i
    \].
  \end{proof}

  Обратная терема в общем случае неверна, но её можно сделать верной, потребовав
  чуть больше.
  \begin{theorem}
    Пусть \(f : \realnum^n \to \realnum\), \(a \in \realnum^n\). Пусть также в
    некоторой окрестности точки \(a\) существуют все частные производные \(\diff
    f_i\) и все они непрерывны в точке \(a\). Тогда \(f\) дифференцируема в
    точке \(a\).
  \end{theorem}
  \begin{proof}
    Рассмотрим приращение \(h \in \realnum^n\), настолько малое, что \(a + h \in
    V\), где \(V\) -- окрестность, в которой существуют все частные производные.

    Распишем приращение функции: \[
      f(a + h) - f(a) =
      f(a_1 + h_1, a_2 + h_2, \cdots, a_n + h_n) - f(a_1, a_2, \cdots, a_n) =
      f(a_1 + h_1, a_2 + h_2, \cdots, a_n + h_n) -
        f(a_1 + h_1, a_2 + h_2, \cdots, a_n) +
        f(a_1 + h_1, a_2 + h_2, \cdots, a_n) -
        f(a_1, a_2, \cdots, a_n) =
      f(a_1 + h_1, a_2 + h_2, \cdots, a_{n - 1} + h_{n - 1}, a_n + h_n) -
        f(a_1 + h_1, a_2 + h_2, \cdots, a_{n - 1} + h_{n - 1}, a_n) +
        f(a_1 + h_1, a_2 + h_2, \cdots, a_{n - 1} + h_{n - 1}, a_n) -
        f(a_1 + h_1, a_2 + h_2, \cdots, a_{n - 1}, a_n) +
        f(a_1 + h_1, a_2 + h_2, \cdots, a_{n - 1}, a_n) -
        f(a_1, a_2, \cdots, a_{n - 1}, a_n) = \cdots
    \]. Применим к каждой из этих разностей теорему Лагранжа, согласно которой на
    каждом из отрезков \(h_i\) найдётся точка \(p_i\), в которой \[
      f(a_1 + h_1, a_2 + h_2, \cdots, a_{i - 1} + h_{i - 1}, a_i + h_i, a_{i +
        1}, \cdots, a_n) - 
      f(a_1 + h_1, a_2 + h_2, \cdots, a_{i - 1} + h_{i - 1}, a_i, a_{i + 1},
        \cdots, a_n) = h_i \cdot D_i f(a_1 + h_1, a_2 + h_2, \cdots, a_{i - 1} +
        h_{i - 1}, a_i + p_i, a_{i + 1}, \cdots, a_n) 
    \]. При этом \(p_i \in [0, h_i]\), и мы можем записать её в таком виде: \[
      p_i = h_i c_i \pred c_i \in [0, 1]
    \]. Также обозначим полученные точки на \(\realnum^n\) следующим образом: \[
      b_i = (a_1 + h_1, a_2 + h_2, \cdots, a_{i - 1} + h_{i - 1}, a_i + h_i c_i,
      a_{i + 1}, \cdots, a_n)
    \]. Легко заметить, что при \(h \to 0\) оказывается \(b_i \to a\), так как
    \(c_i\) ограничены и \(h_i \to 0\) влечёт \(h_ic_i \to 0\).
    
    Из всех этих преобразований получаем \[
      f(a + h) - f(a) = \sum_{i = 1}^n \diff_i f(b_i)
    \].
    
    Что мы хотим получить? Мы хотим получить \[
      f(a + h) - f(a) = Ah + o(\abs{h})
    \]. При этом ожидается, что \[
      A = \Big(\diff_1 f, \diff_2 f, \cdots, \diff_n f\Big)
    \]. Перенесём \(Ah\) влево, и оценим по модулю, чтобы доказать, что \(f(a +
    h) - f(a) - Ah = o(\abs{h})\): \[
      \abs{f(a + h) - f(a) - Ah} = \abs{\sum_{i = 1}^n \left( \diff_i f(b_i) -
      \diff_i f(a) \right)h_i} \le \sum_{i = 1}^n \abs{\diff_i f(b_i) -
      \diff_i f(a)}\abs{h_i} \le
      \abs{h_i}\sum_{i = 1}^n \abs{\diff_i f(b_i) - \diff_i f(a)}
    \]. Так как \(b_i \to a\), а \(\diff_i f\) -- непрерывны, \(\diff_i f(b_i)
    \to \diff_i f(a)\) и сумма стремится к нулю. Разделив на \(\abs{h_i}\),
    получим, что это действительно \(o(\abs{h})\).
  \end{proof}
  \begin{consequences}
    \item
      \definition[якобиан]{
        Якобианом называется матрица \(\diff f\), элементы которой \[
          (\diff f)_{ij} = \diff_i f_j
        \].
      }

      Пусть \(f : \realnum^n \to \realnum^k\) дифференцируема в точка \(a\), а
      \(g : \realnum^k \to \realnum^m\) дифференцируема в точке \(b = f(a)\).
      Тогда дифференциал композиции равен композиции дифференциалов, а для
      якобианов, если договориться о базисе, будет верно следующее равенство: \[
        (g \circ f)'(a) = g'(b) f'(a) = \left( \diff_{\alpha}g_{\beta} \right)_{
          \substack{
            \alpha = 1\cdots k \\
            \beta = 1\cdots m
          }
        } \left( \diff_{\gamma}g_{\alpha} \right)_{
          \substack{
            \alpha = 1\cdots k \\
            \gamma = 1\cdots n
          }
        } = \left( \sum_{\alpha = 1}^k \diff_{\alpha}g_{\beta}(b)\cdot
              \diff_{\gamma}f_{\alpha} \right)_{
          \substack{
            \beta = 1\ldots m \\
            \gamma = 1\cdots n
          }
        }
      \]. Если переписать это равенство для ячейки \((\gamma, \beta)\) якобиана,
      то получится более удобная его форма: \[
        \diff_{\gamma}\left( g \circ f \right)_{\beta} =
            \sum_{\alpha = 1}^k \diff_{\alpha}g_{\beta} \diff_{\gamma} f_{\alpha}
      \]. Это равенство называется \defined[правило цепочки]{правилом цепочки}.
  \end{consequences}
  % примерчики



  
\section{Теорема об обратном отображении}
  Возникает такое предположение, связанное с производной: если в некоторой точке
  производная не равна нулю, то она больше либо меньше нуля в некоторой
  окрестности этой точки, а значит, функция в этой окрестности возрастает либо
  убывает. Тогда в она локально биективна, а значит, локально обратима. В
  общем-то, так оно и есть.

  \definition[прямоугольный параллелипипед]{
    Декартово произведение нескольких отрезков \[
      P = \prod_{i = 1}^{n} [a_i, b_i]
    \] называется \defined{прямоугольным параллелепипедом}.
  }

  \begin{lemma}[о липшицевом отображении]
    Рассмотрим отображение \(f : D \to \realnum^n\), где \(D\) -- открытое
    множество. Пусть \(f\) дифференцируемо на \(D\). Пусть также определён
    параллелепипед \(P \subset D\). Тогда \[
      \forall{x \in P} ~ \abs{\diff_i f_j(x)} \le M \implies
            \forall{x, y \in P} ~ \abs{f(x) - f(y)} \le Mn^2\abs{x - y}
    \].
  \end{lemma}
  \begin{proof}
    Разложим \(f\) по координатным отображениям \(f_1, f_2, \cdots, f_n\).
    Оценим теперь \(\abs{f(x) - f(y)}\) по модулю: \[
      \abs{f(x) - f(y)} = \sqrt{\sum_{i = 1}^n \left( f_i(x) - f_i(y) \right)^2}
          \le \sum_{i = 1}^n \abs{f_i(x) - f_i(y)} \le \Break
    \]. Оценим каждое из слагаемых: \[
      \abs{f_i(x) - f_i(y)} = \abs{f_i(x_1, x_2, \cdots, x_n) - f_i(y_1, y_2,
      \cdots, y_n)} =
         \abs{\left(f_i\left(x_1, x_2, \cdots, x_n\right) - f_i\left(y_1, x_2,
         \cdots, x_n\right)\right)
          + \left( f_i\left(y_1, x_2, \cdots, x_n\right) - f_i\left(y_1, y_2,
          x_3, \cdots, x_n\right) \right)
          + \cdots
          + \left( f_i\left(y_1, y_2, \cdots, y_{n - 1}, x_n\right) -
            f_i\left(y_1, y_2, \cdots, y_{n - 1}, y_n\right) \right)} \le
      \sum_{j = 1}^n \abs{f_i\left(y_1, y_2, \cdots, y_{j - 1}, x_j, x_{j + 1},
      \cdots,
          x_n\right) - f_i\left(y_1, y_2, \cdots, y_{j - 1}, y_j, x_{j + 1},
          \cdots, x_n\right)}
    \]. К каждому из таких слагаемых можно применить теорему Лагранжа, согласно
    которой найдётся некоторая точка \(c_j \in \left\langle x_j, y_j
    \right\rangle\), в которой \[
      \abs{f_i(y_1, y_2, \cdots, y_{j - 1}, x_j, x_{j + 1}, \cdots,
          x_n) - f_i(y_1, y_2, \cdots, y_{j - 1}, y_j, x_{j + 1}, \cdots, x_n)} =
      \abs{x_j - y_j}\underbrace{\abs{\diff_i f_i(y_1, y_2, \cdots, y_{j - 1},
      c_j, x_{j + 1}, \cdots, x_n)}}_{\le M}
    \]. Точка \(c = (c_1, c_2, \cdots, c_n)\) лежит в параллелепипеде, так как
    он является выпуклым множеством.

    Так, \[
      \Resume \le \abs{f_i(x) - f_i(y)} \le M\sum_{j = 1}^n \abs{x_j - y_j} \le
      \Break
    \]. Оценим каждое слагаемое здесь по определению евклидовой формы: \[
      \abs{x_j - y_j} \le \abs{x - y} = \sqrt{\sum_{j = 1}^n \abs{x_j - y_j}^2}
    \]. Всего слагаемых \(n\) штук. \[
      \Resume \le Mn\abs{x - y} \le Mn^2 \abs{x - y}
    \].
  \end{proof}
  \begin{theorem}[теорема об обратном отображении]
    Пусть \(f : \realnum^n \to \realnum^n\), непрерывно дифференцируемое во всех
    точках.  Рассмотрим точку \(a \in \realnum^n\), в которой \(\det f'(a) \neq
    0\) (или, что то же самое, дифференциал невырожден, или \(\dim\ker{\diff
    f(a)} = 0\).)

    Тогда в некоторой окрестности \(V\) точки \(f(a)\) определено отображение
    \(f^{-1} : V \to \realnum^n\), дифференцируемое в точке \(f(a)\), причём \[
      \diff f^{-1}(f(a)) = (\diff f(a))^{-1}
    \] (\(\diff f(a))^{-1}\) -- обратный оператор).
  \end{theorem}
%  \begin{proof}
%    Будем рассматривать линейный оператор \(A\), соответствующий этому
%    отображению: \(A = \diff f(a)\). Также будем рассматривать отображение
%    \(A^{-1} \circ f : \realnum^n \to \realnum^m\). Дифференциал этого
%    отображения есть тождественное отображение: \[
%      \diff(A^{-1} \circ f)(a) = \diff A^{-1} \circ \diff f(a) = A^{-1}\circ A =
%      \Id
%    \].
%    \begin{enumerate}
%      \item Пусть теорема уже доказана для отображений, дифференциал которых есть
%      тождественное отображение. Тогда отображение \((A^{-1}\circ f)^{-1}\)
%      существует, непрерывно и дифференцируемо в точке \(f(a)\).
%
%      Тогда \(f\) обратимо, и \(f^{-1}\) выражается следующим образом: \[
%        f^{-1} = (A^{-1} \circ f)^{-1} \circ A^{-1}
%      \]. Тогда \(f^{-1} \circ f\) равно \[
%        f^{-1} \circ f = (A^{-1} \circ f)^{-1} \circ A^{-1} \circ f = 
%        f^{-1} \circ f = (A^{-1} \circ f)^{-1} \circ (A^{-1} \circ f) = \Id
%      \]. Но это означает, что и \(A = \diff f = \Id\).
%    \item Докажем теорему для случая, когда \(A = \diff f = \Id\). Это по
%    определению означает \[
%      f(a + h) - f(a) = h + o(\abs{h})
%    \]. Докажем, что в некоторой проколотой окрестности точки \(a\) отображение
%    биективно (если различны значения, то различны и порождающие их аргументы).
%    Действительно, если перейти к равенству модулей \[
%      \abs{f(a + h) - f(a)} = \abs{h + o(\abs{h})}
%    \], применить неравенство треугольника \(\abs{h + o(\abs{h})} \ge \abs{h} - 
%    \abs{o(\abs{h})}\), и разделить всё на \(\abs{h}\), получим неравенство \[
%      \frac{\abs{f(a + h) - f(a)}}{\abs{h}} \ge 1 - \frac{\abs{o(\abs{h})}}{\abs{h}} > 0
%    \], или просто, \[
%      \abs{f(a + h) - f(a)} > 0
%    \], когда \(h \neq 0\). Таким образом, в некоторой окрестности точки \(a\)
%    отображение биективно.
%    \end{enumerate}
%  \end{proof}
  \begin{proof}\footnote{Взято целиком из книги М.~Спивака <<Математический
  анализ на многообразиях>>}
    Пусть \(\lambda\) -- линейное отображение \(\diff f(a)\). Оно невырожденно,
    поскольку \(\det f'(a) \neq 0\).

    Но \(\diff(\lambda^{-1} \circ f)(a) = \diff(\lambda^{-1})(f(a))\circ\diff
    f(a) = \lambda^{-1} \circ\diff f(a)\) есть тождественное линейное
    отображение. Если теорема верна для \(\lambda^{-1}\circ f\), то она очевидно
    верна и для \(f\).  Поэтому мы можем считать с самого начала, что
    \(\lambda\) -- тождественное отображение. Если тогда \(f(a + h) = f(a)\), то
    \[
      \frac{\abs{f(a + h) - f(a) - \lambda(h)}}{\abs{h}} = \frac{\abs{h}}{\abs{h}} = 1
    \]. Но \[ 
      \lim_{h \to 0}  \frac{\abs{f(a + h) - f(a) - \lambda(h)}}{\abs{h}} = 0
    \]. Это означает, что равенство \(f(x) = f(a)\) не может выполняться для
    значений \(x\), произвольно близких к \(a\), не равных \(a\). Поэтому существует
    замкнутый параллелепипед \(U\), содержащий \(a\) в качестве внутренней точки и
    такой, что \[
      f(x) \neq f(a) \text{ если } x \in U \text{ и } x \neq a
    \].
    
    Поскольку \(f\) непрерывно дифференцируема в открытом множестве, содержащем
    \(a\), можно также считать, что \[
      \forall{x \in U} ~ \pred \det f' (x) \neq 0
    \] и \[
      \forall{i, j, x \in U} ~ \pred \abs{\diff_jf^i(x) - \diff_jf^i(a)} < \frac{1}{2n^2}
    \].
    
    Заметим, что отсюда и из леммы, примененной к \(g(x) = f (x) - x\), вытекает
    \[
      \abs{f(x_1) - x_1 - (f(x_2) - x_2)} \le
      \frac{1}{2}\abs{x_1 - x_2}
    \] для любых \(x_1, x_2 \in U\). Так как \[
      \abs{x_1 - x_2} - \abs{f(x_1) - f(x_2)} \le
      \abs{f(x_1) - x_1 - (f(x_2) - x_2)} \le
      \frac{1}{2}\abs{x_1 - x_2}
    \], то получаем \[
      \abs{x_1 - x_2} \le 2\abs{f(x_1) - f(x_2)}
    \] для всех \(x_1, x_2 \in U\).

    Далее, \(f\) отображает границу параллелепипеда \(U\) в компактное
    множество, не содержащее, согласно свойству \(x \neq a \implies f(x) \neq
    f(a)\), \(f(a)\) (рис.~\ref{fig:spivak}). Поэтому существует такое число \(d
    > 0\), что \(\abs{f(x) - f(a)} \ge d\) для всех \(x\), принадлежащих границе
    \(U\). Пусть \(W = \left\{ y \big| \abs{y - f(a)} < d/2 \right\}\). Если
    \(y \in W\) и \(x\) принадлежит границе \(U\), то \[
      \abs{y - f(a)} < \abs{y - f(x)}
    \].
    
    Покажем, что для всякого \(y \in W\) существует единственное \(x\) внутри
    \(U\), для которого \(f(x) = y\). Для этого рассмотрим функцию \(g : U \to R\),
    определенную равенством \[
      g(x) = \abs{y - f(x)}^2 = \sum_{i = 1}^n \left( y^i - f^i(x) \right)^2
    \]. Эта функция непрерывна и потому имеет минимум на \(U\). Если \(x\)
    принадлежит границе \(U\), то \(g(a) < g(x)\) в силу неравенства \(\abs{y -
    f(a)} < \abs{y - f(x)}\).
    \begin{figure}[h]
      \centering
      \caption{\label{fig:spivak}}
      \includegraphics[width=\textwidth]{chapters/spivak.png}
    \end{figure}
    Следовательно, минимум \(g\) не достигается на границе \(U\). Согласно
    теореме Ферма, тогда существует такая точка \(x\) внутри \(U\), что
    \(\diff_j g(x) = 0\) для всех \(j\), т.\,е. \[
      \forall{j} ~  \pred \sum_{i = 1}^n 2(y^{i} - f^i(x)) \diff_jf^i(x) = 0
    \].
    
    Но в силу \(\det f'(x) \neq 0\), матрица \(\left( \diff_jf^i(x) \right)\)
    имеет ненулевой определитель. Поэтому мы должны иметь \(y^i - f^i(x) = 0\)
    для всех \(i\), т. е.  \(y = f(x)\). Тем самым доказано существование \(x\).
    Единственность непосредственно следует из неравенства \(\abs{x_1 - x_2} \le
    2\abs{f(x_1) - f(x_2)}\).

    Обозначим через \(V\) пересечение внутренности \(U\) с \(f^{-1}(W)\). Мы
    показали, что функция \(f: V \to W\) имеет обратную \(f^{-1}: W \to V\).
    Теперь неравенство \[
      \abs{x_1 - x_2} \le 2\abs{f(x_1) - f(x_2)}
    \] можно переписать в виде \[
      \abs{f^{-1}(y_1) - f^{-1}(y_2)} \le 2\abs{y_1 - y_2}
    \] для всех \(y_1, y_2 \in W\). Это показывает, что \(f^{-1}\) непрерывна.

    Осталось только доказать, что \(f^{-1}\) дифференцируема. Пусть \(\mu =
    \diff f(x)\).  Покажем, что \(f^{-1}\) дифференцируема в точке \(y = f(x)\)
    и имеет в качестве производной \(\mu^{-1}\). Как и в доказательстве теоремы
    о композиции, для всех \(x_1 \in V\) имеем \[
      f(x_1) = f(x) + \mu(x_1 - x) + \varphi(x_1 - x)
    \], где \[
      \lim_{x_1 \to x}\frac{\abs{\varphi(x_1 - x)}}{\abs{x_1 - x}} = 0
    \]. Поэтому \[
      \mu^{-1}(f(x_1) - f(x)) = x_1 - x + \mu^{-1}(\varphi(x_1 - x))
    \]. Так как каждое \(y_1 \in W\) имеет вид \(f(x_1)\), где \(x_1 \in V\), то
    последнее равенство можно переписать так: \[
      f^{-1}(y_1)  = f^{-1}(y) + \mu^{-1}(y_1 - y) - \mu^{-1}(\varphi(f^{-1}(y_1) -
      f^{-1}(y)))
    \], и потому достаточно показать, что \[
      \lim_{y_1 \to y} \frac{\abs{\mu^{-1}(\varphi(f^{-1}(y_1) -
      f^{-1}(y)))}}{\abs{y_1 - y}} = 0
    \]. Следовательно, достаточно убедиться в том, что \[
      \lim_{y_1 \to y} \frac{\abs{\varphi(f^{-1}(y_1) -
      f^{-1}(y))}}{\abs{y_1 - y}} = 0
    \]. Но \[
      \frac{\abs{\varphi(f^{-1}(y_1) - f^{-1}(y))}}{\abs{y_1 - y}} = 
      \frac{\abs{\varphi(f^{-1}(y_1) - f^{-1}(y))}}{\abs{f^{-1}(y_1) - f^{-1}(y)}}
      \frac{\abs{f^{-1}(y_1) - f^{-1}(y)}}{\abs{y_1 - y}} = 0
    \]. Поскольку \(f^{-1}\) непрерывна, \(f^{-1}(y_1) \to f^{-1}(y)\) при \(x_1 \to
    y\). Поэтому первый множитель стремится к нулю. А так как, в силу неравенства
    \[
      \abs{f^{-1}(y_1) - f^{-1}(y_2)} \le 2\abs{y_1 - y_2}
    \], второй множитель не превосходит 2, то произведение также стремится к 0.
  \end{proof}

\section{Неявные функции}
  \(f(x, y) = 0 \implies y=y(x)\)
  Как правило, нужно задать что-то вроде начального условия: выбрать точку
  \(( x_0, y_0) \in \gamma\), для которой будет \(y(x_0) = y_0\). Просто точку
  \(x_0\) зафиксировать недостаточно.
  \begin{theorem}[теорема о неявной функции]
    Пусть задано непрерывно дифференцируемое отображение \(F : \realnum^{m+n}
    \to \realnum^n\), или же, что то же самое, \(F(x, y) : \realnum^m \times
    \realnum^n \to \realnum^n\), причём \(x \in \realnum^m\), а \(y \in
    \realnum^n\). Пусть функция зафиксирована в точке \((x_0, y_0) \in
    \realnum^m \times \realnum^n\) таким образом, что \(F(x_0, y_0) = 0\) и \[
      \det \left( \diff_{m+j}f_i \right)_{i, j=1}^n \neq 0
    \].

    Тогда существуют открытые множества \(U \subset \realnum^m\) и \(V \subset
    \realnum^n\) -- окрестности точек \(x_0\) и \(y_0\) соответственно,
    и отображение \(g : U \to V\), такое, что
    \{
      \[
        g(x_0) = y_0
      \], \[
        \forall{x \in U} ~ F(x, g(x)) = 0
      \].
    \}
  \end{theorem}
  \begin{proof}
    Рассмотрим отображение \(\varphi : \realnum^m\times \realnum^n \to
    \realnum^m \times \realnum^n\). Договоримся здесь, что через \(x\)
    обозначаются элементы \(\realnum^m\), а через \(y\) -- элементы
    \(\realnum^n\). Так, определим \(\varphi\) как \[
      \varphi(x, y) = \left( x, F(x, y) \right)
    \]. Как выглядит якобиан этого отображения? Она имеет \(m+n\) строк и
    столбцов: \[
      \diff_{\varphi} = \left( 
        \begin{array}{c c}
          E & 0\\
          \diff_F & A\\
        \end{array}
      \right)
    \]. Так как в правом верхнем блоке стоит нулевая матрица, \[
      \det\diff_{\varphi} = \det E \cdot \det \left( \diff_{m+j}f_i \right)_{i,
      j=1}^n \neq 0
    \]. Тогда, по теореме об обратном отображении, \(\varphi\) локально обратима.
    То есть, существует \(\varphi^{-1} : A \to B\), где \(A \subset \realnum^{m
    + n}\) -- окрестность точки \((x_0, F(x_0, y_0))\), а \(B \subset 
    \realnum^{m + n}\) -- окрестность точки \((x_0, y_0)\).

    Здесь нам понадобится считать, что окрестности \(A\) и \(B\) есть декартовы
    произведения некоторых открытых множеств:
    \{
      \[
        A = U \times W
      \], \[
        B = U \times V
      \].
    \}
    Имеется в виду то, что внутри любой окрестности можно выбрать некий
    параллелепипед, который уже, очевидно, действительно является декартовым
    произведением. Множество \(U\) присутствует в обоих произведениях, так как
    является некоторой окрестностью точки \(x_0 \in \realnum^m\).
    Соответственно, \(W\) -- это окрестность точки \(F(x_0, y_0) \in
    \realnum^n\), а \(V\) -- это окрестность точки \(y_0 \in \realnum^n\).

    Так, обратное отображение \(\varphi^{-1}\) паре точек \((x, z)\) сопоставляет
    некую пару точек \((x, k(x, z))\). Состроим отображение \(P : \realnum^m
    \times \realnum^n \to \realnum^n\), которое действует следующим образом:
    \((p, q) \mapsto q\). Тогда \(k(x, z) = P \circ \varphi^{-1}\). Отсюда
    следует, что \(k\) -- это непрерывно дифференцируемое отображение, так как
    \(\varphi^{-1}\) -- непрерывно дифференцируемое как обратное, а \(P\) -- как
    линейное.

    Теперь заметим, что \(k(x, F(x, y)) \equiv y\). Но нам интересно обратное:
    \(F(x, k(x, z)) = z\). Тогда объявим \(g(x) = k(x, 0)\). Автоматически,
    \(F(x, g(x)) \equiv 0\), а \[
      g(x_0) = k(x_0, 0) = k(x_0, z_0) = k(x_0, F(x_0, y_0)) = y_0
    \].
  \end{proof}
  \note{
    Пусть \(F(x, g(x)) \equiv 0\), \(x \in U\). Можно рассмотреть координатные
    функции: \(F_j(x, g(x)) \equiv 0\).
    Найдём производную в точке \((x_0, y_0)\).
    Продифференцируем это равенство по \(x_i\): \[
      \diff_i F_j \left( x, g(x) \right)\equiv 0 = \diff_iF_j(x_0, y_0) +
      \sum_{r = 1}^n \diff_{m+i} F_j(x_0, x_0) \cdot \diff_i g_r(x_0)
    \]. Отсюда, можно найти производную \(g_r\), так как это матричное уравнение
    разрешимо (потому что определитель матрицы \(\diff_{m + i} F_j(x_0, y_0)\)
    не ноль) но найденная производная неизбежно будет зависеть от \(\diff_i
    F_j(x_0, y_0)\).
  }
  \begin{theorem}[обобщённая теорема об обратном отображении]
    Пусть задано непрерывно дифференцируемое отображение \(f : \realnum^n \to
    \realnum^p\), где \(p \le n\). Пусть зафиксирована некоторая точка \(a \in 
    \realnum^n\), в которой \(\rank{\diff f(a)} = p\). Тогда существует
    непрервыно дифференцируемо отображение \(h : \realnum^n \to \realnum^n\),
    для которого \[
      f \circ h(x_1, \cdots, x_n) = \left( x_{n-p+1}, \cdots, x_n \right)
    \].
  \end{theorem}
  \note{
    Если \(p = n\), то это в точности теорема об обратном отображении.
  }
  \begin{proof}
    Рассмотрим отображение \(f\) таким образом: \(f : \realnum^{n - p}\times
    \realnum^p \to \realnum^p\).
    \begin{itemize}
      \item
        Пусть сперва оказалось, что \[
          \det\left( \diff_{n - p + i} f_j\right)_{i, j = 1}^p
        \]. Тогда, аналогично прошлой теореме, можно найти отображение \(k :
        \realnum^{n - p}\times\realnum^p \to \realnum^p\), для которого \[
          f(x, k(x, z)) = z
        \]. Тогда \[
          h(x, z) = \left( x, k(x, z) \right)
        \].
      \item
        Пусть оказалось, что \[ 
          \rank{\left(\diff_i f_j\right)_{\substack{i = 1..n\\j=1..p}}} = p
        \]. Это значит, что в матрице есть \(p\) линейно независимых стольцов.
        %\ldots
    \end{itemize}
  \end{proof}
\section{Производные высших порядков. Формула Тейлора.}
  \definition[билинейная форма]{
    Пусть \(X_1\) и \(X_2\) -- два банаховых пространства. Тогда
    \defined{билинейной формой} называется отображение, аддитивное и однородное
    по каждой переменной.
  }
  Для билинейной формы легко определить норму: \[
    \norm{B} = \sup_{\substack{x_1 \in B(x_1, 1) \\ x_2 \in B(x_2, 1)}} \norm{B(x_1, x_2)}
  \].
  \note{
    Рассмотрим функцию \(f : \realnum^n \to \realnum^m\).
    Каждой точке \(a \in \realnum^n\) можно поставить в соответствие точку 
    из \(L(\realnum^m, \realnum^n)\): \[
      a \mapsto \diff f(a)
    \]. Таким образом, \(\diff f\) -- это отображение: \(\diff f : \realnum^n
    \to L(\realnum^n, \realnum^m)\). Нас интересует исследовать его на
    дифференцируемость. Если оно окажется дифференцируемым, то дифференциал
    дифференциала -- это линейный оператор, действующий из \(\realnum^n\) в
    \(L(\realnum^n, \realnum^m)\), то есть, лежит в \(L(\realnum^n, L(\realnum^n,
    \realnum^m))\).

    Утверждается, что что пространство \(L(\realnum^n, L(\realnum^n,
    \realnum^m))\) изометрично пространству билинейных форм, действующих из
    \(X \times X\) в \(Y\).
  }
